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摘 要 : 在 众 核 处 理 器 系统 中 ， 片 上 网 络 常 被 用 来 提供 高 带宽 、 低 延迟 、 高 可 靠 的 片上 网 络 通信 。 为 了 减少 
网 络 拥塞 、 提 高 网 络 性 能 ， 流 量 平 衡 路 由 算法 获得 研究 人 员 的 广泛 关注 。 流 量 平衡 算法 通常 利用 完全 自 适 
应 路 由 算法 来 提供 路 径 分 集 ， 而 当前 的 完全 自 适 应 路 由 算法 或 者 需要 较 多 的 虚 通道 或 者 假设 一 个 保守 的 流 
控 策略 。 一 方面 虚 通 道 是 比较 昂贵 的 资源 ， 另 一 方面 保守 的 流 控 策略 则 有 可 能 造成 网 络 性 能 的 下 降 。 因 此 
研究 人 员 提 出 利用 应 用 程序 的 流量 信息 来 提升 路 由 性 能 。 这 些 算法 在 不 使 用 虚 通 道 的 基础 上 可 以 针对 不 
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的 流量 特性 进行 重 构 ， 从 而 实现 路 由 自 适应 度 的 按 需 分 配 。 按 照 使 用 的 流量 信息 类 型 ， 流 量 感知 的 可 重 构 
路 由 算法 可 以 分 为 离线 和 在 线 算 法 。 离 线 算法 需要 事先 知道 程序 的 流量 特征 ， 也 们 大 多 针对 应 用 程序 
定制 的 多 核 片 上 系统 。 在 线 算法 则 是 根据 在 线 收集 的 流量 信息 进行 重 构 ， 因 此 可 以 用 于 通用 处 理 器 系统 。 
本 文 将 讨论 最 近 国 际 上 提出 的 两 种 著名 的 离线 算法 , 并 重点 介绍 本 文 作者 在 2011 年 国际 计算 机 体系 结构 大 
会 (ISCA’11) 上 发 表 的 基于 算盘 转向 模型 的 在 线 可 重 构 路 由 算法 。 
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由 于 存储 器 墙 、ILP- 墙 、 以 及 功 耗 墙 等 约束 的 存在 ， 传 统 的 依靠 提升 单个 处 理 器 性 能 的 
做 法 已 不 能 获得 令 人 满意 的 结果 。 此 时 多 核 及 众 核 处 理 器 通过 并 行 化 来 提升 应 用 程序 性 能 的 
做 法 被 认为 是 一 种 可 行 方案 趾 。 在 众 核 处 理 器 系统 中 ， 片 上 网 络 由 于 具有 优良 的 性 能 ， 所 以 
被 广泛 期 望 成 为 主流 互 连 方案 中。 由 于 片上 网 络 负责 为 处 理 器 之 间或 处 理 器 和 缓存 之 间 提 供 
通信 ， 所 以 其 性 能 对 系统 性 能 具有 很 大 影响 。 一 般 来 说 ， 片上 网 络 的 性 能 主要 取决 于 网 络 拓 
扑 、 流 控 策 略 和 路 由 算法 。 


网 络 拓扑 决定 了 任意 两 点 之 间 的 最 短 距 离 以 及 网 络 的 对 剖 带 宽 , 从 而 决定 了 网 络 的 峰值 
性 能 。 网 络 拓扑 的 设计 需要 综合 考虑 各 种 因素 ， 例 如 端口 数目 、 每 个 端口 的 带宽 、 工 艺 所 能 
允许 的 布线 密度 以 及 信号 速率 。 目 前 常见 的 网 络 拓扑 包括 交叉 开关 和 矩阵 ， 克 洛斯 网 络 (Clos 
Network)“， 蝴 蝶 网 络 ， 以 及 Tori 网 络 (包括 网 状 网 (mesh)， 环 网 (torus )， 以 及 超 立方 
(hypercube) 等 ) 名。 其 中 二 维 网 状 网 的 扁平 结构 便于 生产 加 工 ， 所 以 被 片上 网 络 系统 广泛 
采用 中 SH。 本 文 将 主要 针对 二 维 网 状 网 网 络 进行 讨论 。 


流 控 机 制 负责 为 数据 包 分 配 网 络 资源 ， 例 如 通道 带宽 、 缓 存 空 间 、 以 及 状态 局。 好 的 流 
控 机 制 应 该 能 够 准确 、 高 效 地 将 网 络 资源 分 配给 最 需要 该 资源 的 数据 包 。 在 包 交 换 网 络 中 常 
见 的 流 控 机 制 包括 存储 转发 机 制 、 虚 跨 步 机 制 、 虫 也 机制 以 及 虚 通 道 机 制 。 由 于 虫 孔 机 制 可 
以 有 效 地 减少 缓存 需求 及 数据 包 延 迟 , 所 以 被 片上 网 络 系统 广泛 采用 。 颗 孔 机 制 将 数据 包 切 
分 为 多 个 流 探 单元 Clow control digit， 简 称 fit)。 其 中 每 个 数据 包 包 括 一 个 头 流 探 单 元 、 若 
干 数 据 流 探 单元、 以 及 一 个 尾 流 探 单 元 。 头 流 探 单 元 用 于 建立 通路 ， 后 续 的 流 探 单元 都 将 沿 
着 同样 的 路 径 前 进 , 最 终 尾 流 控 单 元 释放 该 通路 。 本 文 的 讨论 基于 采用 虫 孔 机 制 的 片上 网 络 。 


路 由 算法 用 于 决定 数据 包 在 网 络 中 的 传输 路 径 。 好 的 路 由 算法 应 该 能 够 为 数据 包 指 定 一 
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1 Instruction-Level-Parallelism， ls 级 并 行 
2 一 类 多 级 交换 网 络 的 拓扑 ， 由 查尔斯 . 克 洛 斯 (Charles Clos) 于 1953 年 提出 
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短路 径路 由 算法 和 非 最 短路 径路 由 算法 。 最 短路 径路 由 算法 要 求 数据 包 的 每 一 跳 均 选择 趋 近 
目标 节点 的 方向 。 这 种 算法 的 好 处 是 规则 简单 ， 并 且 网 络 中 不 会 产生 活 锁 。 相 对 来 说 ， 非 最 
短路 径路 由 算法 的 规则 较为 复杂 , 但 是 可 以 提升 网 络 对 拥塞 以 及 故障 的 容忍 能 力 。 为 了 便于 
理解 ， 本 文 讨论 主要 针对 最 短路 径路 由 算法 。 


根据 在 路 由 过 程 中 是 否 考虑 网 络 状 态 ， 路 由 算法 可 以 分 为 无 关 路 由 算法 (oblivious 
routing) 以 及 自 适 应 路 由 算法 (adaptive routing )。 无 关 路 由 不 考虑 网 络 状态 ， 所 以 算法 相对 
简单 、 便 于 实现 。 但 是 其 对 网 络 拥塞 、 路 由 器 以 及 链 路 的 故障 的 容忍 能 力 较 低 。 自 适应 路 由 
算法 可 以 根据 网 络 的 当前 状态 动态 地 选择 路 径 ， 从 而 避免 拥塞 。 


按照 可 使 用 的 路 径 数 量 , 自 适应 路 由 算法 可 以 分 为 部 分 自 适应 路 由 算法 和 完全 自 适应 路 
由 算法 。 完 全 自 适 应 路 由 算法 允许 数据 包 利用 源 和 目的 节点 之 间 的 任意 路 径 ， 而 部 分 自 适应 
路 由 算法 则 只 允许 数据 包 利用 其 中 一 部 分 路 径 。 


由 于 需要 足够 的 路 径 分 集 来 缓解 拥塞 , 目前 流量 平衡 路 由 算法 大 多 利用 一 个 完全 自 适应 
路 由 算法 来 提供 被 选 输出 端口 F99000002 然而 目前 常见 的 完全 自 适应 路 由 算法 不 是 需要 
大 量 的 虚 通 道中 中 ， 就 是 要 假设 一 个 非常 保守 的 流 控 策 略 下 71。 


由 于 在 片上 网 络 系统 中 虚 通 道 的 实现 成 本 相对 较 高 , 所 以 这 些 需 要 大 量 虚 通道 的 路 由 算 
法 ， 例 如 引文 [13][14] 中 的 方案 ， 并 不 适用 于 片上 网 络 系统 。 基 于 杜 亚 托 (Duato) 理论 的 路 
| 算法 对 虚 通 道 的 要 求 较 低 ， 但 是 要 求 保守 的 流 控 策 略 。 根 据 杜 亚 托 理论 的 要 求 ， 路 由 器 ， 
的 缓冲 队列 不 允许 存放 属于 不 同 数据 包 的 流 控 单 元 号 。 只 有 当 上 一 个 数据 包 的 尾 流 控 单 元 
离开 之 后 ， 缓 冲 队列 才能 被 重新 分 配 。 这 个 约束 条 件 保 证 了 当 茶 个 数据 包 发 生 拥 塞 时 ， 其 头 
流 控 单元 一 定 在 缓冲 队列 的 头 部 ， 从 而 可 以 选择 逃避 通道 。 然 而 这 却 造 成 缓冲 空间 的 浪费 。 
因此 对 于 传输 短 数 据 包 的 网 络 ， 这 种 约 东 条 件 将 会 导致 网 络 性 能 的 下 降 。 


与 完全 自 适应 路 由 算法 相 比 , 不 使 用 虚 通道 的 部 分 自 适应 路 由 算法 的 实现 开销 更 小 并 且 
可 以 使 用 更 加 先进 的 流 控 策略 。 例 如 格拉 斯 (C.J. Glass) 和 倪 明 选 CL. M. Ni) 提出 的 转向 
模型 ”和 印 GHE, G M. Chiu》 提 出 的 奇偶 转向 模型 JDO. 转向 模型 可 用 于 设计 无 虚 通 道 的 
部 分 自 适应 路 由 算法 。 他们 将 网 络 中 所 有 可 能 的 转向 划分 为 两 种 抽象 环 : 顺 时 针 抽 象 环 和 逆 
RIPPIN E 可 以 保证 网 络 不 出 现 死 锁 。 然 而 三 发 现 根 
据 转 向 模型 设计 的 路 由 算法 所 提供 的 自 适 应 度 是 不 均匀 的 。 为 了 解决 这 个 问题 , 他 提出 了 奇 
偶 转 向 模型 。 但 是 奇 侦 转 向 模型 对 于 任何 距离 大 于 2 的 节点 对 均 不 能 提供 全 部 的 自 适应 度 。 
不 均匀 或 不 充分 的 路 由 自 适应 度 可 能 导致 在 突 发 流量 情况 下 的 网 络 拥塞 。 


为 了 解决 这 个 问题 , 研究 人 员 提 出 使 用 可 重 构 的 路 由 算法 为 应 用 程序 提供 按 需 分 配 的 路 
1 自 适应 度 。 总 体 来 说 可 重 构 路 由 算法 是 部 分 自 适应 路 由 算法 , 所 以 可 以 不 使 用 虚 通 道 以 及 
不 要 求 保 守 的 流 控 策略 。 这 些 算法 可 以 通过 分 析 应 用 程序 的 流量 特性 为 高 负载 方向 的 数据 包 
提供 更 多 的 路 径 分 集 。 


根据 流量 信息 的 获取 方式 ,可 重 构 路 由 算法 可 以 分 为 离线 和 在 线 算法 两 类 。 离 线 可 重 构 
路 由 算法 假设 可 以 提前 获得 应 用 程序 的 流量 信息 , 并 且 通 过 对 流量 特性 的 分 析 来 决定 路 由 策 
各。 县 有 代表 性 的 离线 可 重 构 路 由 算法 包括 发 表 在 2009 年 IEEE 期 刊 TPDS 第 3 期 的 应 用 
程序 定制 的 路 由 算法 2 和 发 表 在 2009 年 国际 计算 机 体系 结构 大 会 (SCA'09) 上 的 应 用 程序 感 
知 的 无 关 路 由 算法 [2。 


相对 于 离线 算法 , 在 线 可 重 构 路 由 算法 可 以 根据 在 线 收 集 的 流量 信息 对 自身 重 构 。 因 此 
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本 文 所 要 讨论 的 两 个 离线 算法 均 是 遵循 这 个 基本 思路 ， 但 
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有 不 同 的 侧重 点 。 


些 节点 对 之 间 不 同时 通信 的 特 
点 来 提高 路 由 算法 的 性 能 。 首先 
按 应 用 定制 的 路 由 算法 将 应 用 (a) 通信 图 (b) 拓扑 结构 区 
程序 抽象 为 任务 图 , 并 将 任务 映 
射 到 不 同 的 处 理 器 节点 。 然 后 通 aes lees 
过 参考 网 络 的 拓扑 图 , 将 任务 图 aes 
转化 为 通道 依赖 图 .最 后 分 析 通 fF Wee VE ee ee e 
道 依赖 图 , 并 通过 确保 其 无 环 的 全 sm 处 人 Vs w 
方式 保证 路 由 算法 的 无 死 锁 。 另 S a 2 ls 
外 在 去 环 的 过 程 中 , 通过 均衡 各 
个 通道 内 流量 的 方式 来 提升 路 Cc) 通道 依赖 图 Cd) 应 用 程序 通道 依赖 图 
由 算法 的 性 能 。 我 们 将 使 用 文 
献 [2 中 的 一 个 例子 来 介绍 其 图 1. 按 应 用 定制 的 路 由 路 由 算法 示例 
基本 的 工作 原理 。 具 体 的 算法 和 实现 细节 请 参考 文献 [21]。 

如 图 1(a) 所 示 ， 通 信 图 表明 该 应 用 程序 包含 6 个 任务 。 任 务 之 间 的 通信 用 箭头 表示 ， 虹 
中 双 箭 头 表 示 两 个 任务 可 以 相互 通信 ， 而 单 箭头 则 表示 通信 是 单方 向 的 。 图 1 (b) 给 出 了 网 
络 的 拓扑 结构 ， 其 中 圆圈 代表 处 理 器 ， 箭 头 代表 连接 处 理 器 的 通道 。 在 这 个 例子 中 ,假设 任 
务 Ti 被 映射 到 处 理 器 Po BI MITD)=Pi i=1, 2,...,6, HEP M 为 映射 函数 。 为 了 生成 通道 依赖 
图 ， 首 先 假设 路 由 算法 为 完全 自 适 应 最 短路 径路 由 算法 。 此 时 生成 的 通道 依赖 图 如 图 1 (QO 
所 示 。 由 于 在 通道 依赖 图 中 包含 6 个 依赖 环 ， 所 以 根据 达 利 Dally》 提 出 的 理论 号 网 络 不 
能 使 用 完全 自 适应 路 由 算法 3。 然 而 事实 上 并 不 是 所 有 的 任务 之 间 都 有 通信 ， 因 此 在 去 掉 不 
存在 的 通道 依赖 之 后 的 应 用 程序 通道 依赖 图 如 图 1 (d 所 示 。 例 如 依赖 lz 一 La 在 通道 依赖 加 
图 1 (o) 中 是 存在 的 ， 但 是 在 应 用 程序 通道 依赖 图 图 1 (d)) 中 是 不 存在 的 。 通 过 分 析 拓扑 
结构 图 ， 可 以 发 现 只 有 通信 了 TT 一 T3，Ti 一 Te 和 Ts 一 Ts 可 以 引入 依赖 1 一 l23。 但 是 根据 通信 


图 ， 这 三 种 通信 都 是 不 存在 的 。 因 此 依赖 Lio hog 事实 上 
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序 通道 依赖 图 中 去 除 。 最 后 生成 的 应 用 程序 通道 依赖 图 包含 两 个 环 ， 因 此 根据 达 利 的 理论 仍 
然 不 能 使 用 完全 自 适 应 路 由 算法 。 为 了 去 除 环 ，l4a 一 Di BRIA Lig Las 的 依赖 被 禁止。 


此 时 虽然 不 会 出 现 死 锁 , 但 是 路 由 的 自 适 应 度 受 到 了 损失 。 如 果 可 以 事先 知道 任务 间 通 
信 发 生 的 时 间 ， 例 如 Ti 一 Ts 的 通信 和 Ts 一 Ts 的 通信 在 时 间 上 不 重合 ， 虽 然 应 用 程序 通道 依 
赖 图 中 存在 环 , 但 事实 上 这 个 环 永 远 不 会 在 网 络 中 形成 。 所 以 我 们 不 需要 去 除 这 些 环 ， 从 而 
生成 的 路 由 算法 仍然 是 完全 自 适 应 路 由 算法 。 
2.2 应 用 程序 感知 的 无 关 路 由 算法 加 

与 按 应 用 定制 的 路 由 算法 不 同 ， 文 献 [22] 认 为 由 于 自 适 应 路 由 算法 会 增加 路 由 算法 的 实 
现 复杂 度 所 以 应 该 使 用 无 关 路 由 算法 。 为 了 针对 不 同 应 用 程序 的 特性 ， 文 献 [22] 提 出 一 个 应 
用 程序 感知 的 无 关 路 由 生成 流程 。 这 个 流程 主要 包含 以 下 五 个 步骤 : 

1. 构造 无 环 的 通道 依赖 图 ; 
2. ”根据 应 用 程序 的 通信 图 构建 流 图 ; 
3. 在 流 图 中 为 每 个 通信 流 选择 通路 ; 
4 
5 


如 果 满 足 要 求 ， 返 回 步骤 1; 
选择 最 好 的 路 径 集合 。 


步骤 1: 通过 在 通道 依赖 图 中 去 除 所 有 的 环 可 以 保证 生成 的 无 关 路 由 算法 不 会 产生 死 
锁 。 事 实 上 在 一 个 有 向 图 中 搜索 和 去 除 所 有 的 环 是 一 个 比较 复杂 的 工作 ， 因 此 文献 [22] 提 出 
使 用 转向 模型 中 来 构造 无 环 的 通道 依赖 图 。 例 如 首先 假设 采用 的 路 由 算法 为 北 最 后 
Cnorth-last) 路 由 ， 此 时 生成 的 通道 依赖 图 一 定 是 无 环 的 。 构 造 通 道 依 赖 图 的 方法 读者 可 
以 参考 文献 [14]。 例 如 针对 如 图 2 (a) 所 示 的 3X3 网 状 网 网 络 ， 其 对 应 于 “ 北 最 后 ”路 由 算 
法 的 通道 依赖 图 如 图 2 pb) 所 示 。 当 使 用 北 最 后 路 由 将 数据 包 从 节点 王 疝 节点 G 路 由 时 ， 数 
据 包 可 以 治 着 通路 E>D—G 前 进 。 所 以 通道 ED 依赖 于 通道 DG。 相 应 的 在 图 2 (b) 中 存在 
一 条 ED 到 DG 的 边 。 显 然 ， 图 2 pb) 中 不 存在 环 。 


(b) 基 于 North-last 的 通道 依赖 图 (c) 相 应 于 H 一 D 流 的 流 图 


图 2. 通道 依赖 图 和 流 图 构建 示例 
步骤 2: 是 在 步骤 1 的 基础 上 ， 通 过 在 无 环 的 通道 依赖 图 中 插入 “ 哑 节 点 ”的 方式 构建 
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流 图 。 


通信 流 。 那 么 为 了 构建 流 图 ， 


流 H-~D， 实 际 上 应 用 程序 ， 


步骤 3: 在 构造 好 的 流 


分 配 应 该 满足 一 


选择 问题 抽象 为 混合 的 线 怕 


信息 技术 快报 Vol.9 No.6 

Information Technology Letter Nov. 2011 

所 谓 旺 节点 实际 上 是 网 络 中 的 一 个 路 由 器 。 例 如 应 用 程序 存在 从 节点 H 到 节点 DD 的 

首先 将 节点 HH 和 节点 D 当 作 两 个 哑 节 点 插入 图 中 。 然 后 将 源 

TAH ONEN 51) 与 其 所 有 的 输出 通道 相连 接 ， 并 将 目的 节点 D( 标 注 为 D1) 与 其 所 有 的 输 

入 通道 相连 接 。 如 图 2 (OO 所 示 ， 与 哑 节 点 相连 的 边 用 虚线 表示 。 图 2 (O 只 添加 了 一 个 通信 
可 能 包含 若干 流 ， 最 终 的 流 图 应 该 包含 所 有 的 通信 流 。 

图 中 为 每 个 通信 流 选择 一 条 路 径 。 在 选择 路 径 的 过 程 中 ， 路 径 的 

些 约束 条 件 ， 例 如 使 最 大 通道 负载 最 小 。 文 献 [22] 针 对 小 规模 网 络 将 路 径 的 

规划 问题 ; 针对 大 规模 的 网 络 , 则 提出 一 个 贪 梦 算 法 来 选择 路 径 。 

为 其 选择 路 


首先 将 通信 流 按照 对 网 络 带 宽 


YZ o 


的 需求 进行 降序 排列 , 然后 按 顺 序 针对 每 个 通信 流 
径 。 选 择 路 径 的 方式 是 遵循 加 权 的 迪 杰 斯 特 拉 〈Dijkstra) 最 短路 径 算 ; 


步骤 A: 检查 是 否 所 有 的 通信 流 都 被 分 配 了 路 径 ， 以 及 网 络 状 态 是 否 满足 优化 的 目标 。 


如 果 满 足 则 返 


步骤 5: 比较 针对 不 同 转 


加 步骤 1。 从 而 使 
图 ， 并 且 为 每 个 通信 流 选 择 通路 。 


择 一 个 最 优 的 路 径 集 合 。 


相应 的 路 径 集合 则 通过 写 路 由 表 的 方式 写 入 芯片 , 从 而 应 用 程 
路 由 通信 流 。 文 献 [22] 还 讨论 了 当 网 络 
同 的 虚 通 道内 使 用 不 同 的 转向 模型 路 由 算法 来 构建 不 同 的 流 
不 同 的 虚拟 网 络 内 ， 以 更 好 地 平衡 网 络 流量 。 训 
3 “在线 可 重 构 路 由 算法 


本 节 将 讨论 我 们 在 文献 [23]9 


名 模型 路 | 


j 另 外 一 个 转向 模型 路 | 


算法 生成 的 通信 流 路 径 ，j 


算法 来 构建 新 的 无 环 的 通道 依赖 


Rois 


E3} 
=A 


H 
了 


定义 的 标准 


选 


子 可 以 按照 优化 后 的 路 径 


ba 


;从 


3.1 算盘 转向 模型 基本 想法 


原始 的 转 
许 的 转向 不 会 构成 


HA, 


献 [20] 进 一 步 证 明 如 果 | 
最 石 边 都 不 存在 ， 


m 


顺 时 针 最 右边 | 


TE 
a 


(SW) 转向 ) 


向 模型 已 经 证 明 如 果 网 络 ! 


那么 网 络 无 死 锁 。 如 
个 转向 《〈 东 向 南 CES) 和 南 向 西 
Wai FAG RG CNS) 通道 组 成 。 


所 有 人 允 
BARA! X 
和 逆 时 针 抽 象 环 中 的 
图 3 (a) 所 示 ， 


I 
针 


为 了 在 网 络 中 去 除 所 有 最 右边 ， 文 献 [20] 要 求 所 有 


在 奇数 列 的 节 


seal 
并 要 求 所 有 在 偶 
3 (fia). 3 
省 略 了 具体 的 讨论 。 


文献 [23] 继 承 了 文献 [20] 
果 网 络 不 出 现 顺 时 针 和 逆 时 针 最 右边 ， 那 么 该 网 络 无 死 锁 ”。 与 原始 的 转向 模型 不 同 的 是 ， 


止 逆 时 针 最 


上 南 向 西 转向 (如 医 
数列 的 节点 禁止 东 疝 南 转向 (如 医 


3 (b) 所 示 )， 


右边 的 原理 类 似 ， 本 文 


LAE 


ADT 9 


的 核心 即 “如 


提出 的 算盘 转向 模型 及 相应 的 可 重 构 路 | 


存在 多 条 虚 通 道 情况 下 的 优化 方法 。 例 如 可 以 在 不 


而 将 不 同 的 通信 流 划 分 
# 细 内 容 可 参阅 文献 [22] 。 


到 


算法 。 
ES 
4 F i d 
ins f 4 |! 
中 ! v 中 
day + 
(a) (b) (c) (d) 
图 3. — 顺 时 针 最 右边 的 构成 


(a) 东 向 南 转向 在 南 向 西 转向 上 方 ; 
bO 禁止 南 向 西 转向 ; (0 禁止 东 向 南 
转向 ; (d) 东 向 南 转向 在 南 向 西 转向 下 
方 。 图 中 虚线 表示 连续 的 北向 南通 道 


文献 [23] 去 除 最 厂 


边 的 方法 


名 


更 灵活 。 如 


东 向 南 转向 在 一 个 南 向 西 转向 上 方 。 
的 方式 来 去 除 顺 时 针 最 右边 〈 如 图 
个 点 ; 在 这 个 点 的 上 方 所 有 的 东 向 南 转 癌 被 禁 


3 (9 所 示 ， 为 了 构成 顺 


时 针 最 右边 ， 必 须 存在 一 个 
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因此 可 以 通过 在 所 有 的 南 向 | 
3 (d) 所 示 )。 采 用 这 种 方式 后 网 络 ， 
上 ， 而 在 这 个 点 的 下 方 所 有 的 南 向 西 转 


西 转向 上 方 禁止 东 向 


南 转向 


的 每 一 列 必 然 存在 一 


向 被 禁 


vib 


算法 


止 。 文 献 [23] 将 这 种 类 型 


一 个 逆 时 针 的 珠子 节点 
3.2 算盘 转向 模型 


如 
个 滑 竿 以 及 两 个 滑动 
能 存在 的 位 置 ， 
转 癌 。 为 了 图 的 清晰 性 ， 
并 且 被 分 别 用 来 确定 每 


val 


TK 


T: 
实心 椭圆 


图 4(a) 和 图 4(b) 所 示 , 一 个 4X4 网 状 网 网 络 被 比 
顺 时 针 珠子 和 逆 时 针 珠 子 。 
代表 顺 时 针 珠子 ， 空 心 椭圆 
允许 的 转向 


算盘 转向 


所 有 顺 时 全 
转向 ， 
所 有 顺 时 多 
转向 ， 
顺 时 


1. 


3. 


列 中 ) 


上 《相应 的 ， 逆 时 名 


针 《 相 应 的 ， 逆 时 针 ) 


图 图 


4 (c) Ail 


。 在 顺 时 针 


南 向 西 
的 转向 不 会 形成 


4 (d) 展 示 了 遵循 算盘 
INSEL OFAN, BENET) 珠子 节点 的 持 有 者 可 以 允许 所 有 的 顺 时 针 ( 相 应 的 ， 


的 节点 称 为 | 
用 于 分 阳 逆 时 针 转 向 。 


项 时 针 珠子 节 点 。 类 似 的 ， 在 网 络 的 每 一 个 列 同样 存在 
因此 ， 也 不 会 出 现 逆 时 针 最 


PE D 


F. 


俞 为 一 个 算盘 , 每 一 列 假设 存在 一 
虚线 边 的 矩形 块 代表 珠子 节点 可 
代表 逆 时 针 珠子 ， 虚 线 箭头 代表 禁止 的 
顺 时 针 珠 子 和 逆 时 针 珠子 可 以 独立 控制 ， 


pa 


并 没有 示 出 。 


顺 时 针 转 向 和 逆 时 针 转 向 的 分 布 。 
模型 可 以 定义 为 如 下 三 个 规则 ; 
E OHER, WE 


O 珠子 节点 上 方 EAS IAL RA (相应 的 , 北 


a 


日 ) 


O 珠子 节点 下 方 禁止 南 向 西 (相应 的 ， 东 向 北 ) 


= 


珠子 节点 不 禁止 顺 时 针 《 相 应 的 ， 逆 时 针 ) 转向 。 
转向 模型 的 禁止 转向 的 分 布 情况 。 根 据 算 盘 转 向 模型 ， 


(相应 的 ， 逆 时 针 ) 珠子 节点 
时 针 转 向 (相应 的 ， 除 北向 西 转向 外 所 有 的 逆 时 针 转 向 )， 而 在 其 下 方 的 路 
转向 外 所 有 的 顺 时 针 转 向 《 除 东 向 北 转向 外 所 有 的 逆 时 针 转向 )。 按 照 这 种 规 
顺 时 针 和 逆 时 针 最 
化 为 在 网 络 的 每 一 列 中 确定 


规则 。 


对 于 一 个 kXk 网 状 网 


两 个 珠子 节点 。 因 


为 每 个 珠子 节 


网 络 ,每 一 


能 的 位 置 ， 因 此 在 一 列 ， 
置 情 况 。 而 对 于 一 个 网 


yt et 


子 节 点 的 配 
此 路 
每 一 列 中 移动 珠子 。 
绍 基于 算盘 


络 来 说 ， 因 
个 列 ， 所 以 有 (kXlofx 种 配置 情况 。 每 
方式 代表 一 


| Bw 


顺 时 针 和 逆 时 针 珠子 节 


六 点 有 个 可 
ZHE kxk 个 配 


逆 时 针 ) 转 
转向 外 所 有 的 
器 则 允许 除 
则 分 
型 ， 设 计 无 死 锁 路 由 算法 便 

日 位 置 确定 , 便 形成 新 的 


上 方 的 所 有 路 由 


ait OVER SAS Tl PA 


因此 根据 算盘 转向 模 
点 的 位 置 。 


右边 。 


列 包 含 


为 


LA k 


种 路 由 的 配置 ， 因 
算法 的 重 构 此 时 转化 为 如 何在 网 络 的 


种 珠 


下 面 通过 一 个 例子 来 介 
转向 模型 的 可 重 构 路 | 


作 原 理 。 


如 
在 网 络 的 最 低 一 行 。 
珠子 节点 


数据 包 。 
节点 6 为 


5 (a) 所 示 ， 和 初始 化 时 


上 方 的 节点 全 部 禁 
向 。 此 时 假设 检测 到 一 个 热点 节点 5， 并 且 节 点 6 需要 在 一 个 相对 比较 长 的 时 
因为 对 这 组 节点 而 言 只 
了 获得 更 多 可 使 用 的 通路 来 
7 禁止 了 节点 6 需 使 用 的 东 向 南 转向 。 节 点 7 收集 来 自 


paN 


止 东 


算法 的 工 


各 顺 时 针 珠 子 放 
因此 根据 算盘 转向 模 
向 南 转 


(c) 顺 时 针 禁 止 转向 (d) 逆 时 针 禁 止 转向 


型 ， 


图 4. 应 用 算法 转向 模型 的 网 络 


间 内 向 其 发 送 


有 


点 1 进行 协商 。 珠子 的 


上 有 者 会 


评估 来 自 不 同 节 点 的 请 求 , 最 终 决定 是 
以 及 需要 将 珠子 传递 给 谁 。 在 当前 例子 中 ， 


一 条 可 使 用 的 最 短路 径 ， 所 以 该 路 径 非 常 容易 产生 拥塞 。 
“ 衡 流量 ， 向 其 东 侧 邻居 节点 7 抱怨 当前 状况 , 即 节点 
邻居 的 抱怨 ， 并 与 珠子 的 拥有 者 节 
: 否 放弃 珠子 的 所 有 权 
节点 1 会 将 珠子 传递 给 节点 7。 如 图 5 (b) 所 示 ， 
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节点 7 获得 顺 时 针 珠 子 之 后 , 可 以 
允许 东 向 南 转向 。 此 时 节点 6 到 节 
点 5 便 有 两 条 通路 可 用 来 平衡 流 
量 。 与 节点 6 类 似 , WA 7 也 会 向 
其 邻居 节点 8 抱怨 , 因为 节点 8 同 
样 禁止 东 向 南 转向 。 经 过 类 似 的 过 


程 之 后 ,在 当前 例子 中 ,节点 8 同 (a) (b) (c) 
样 会 获得 顺 时 针 珠 子 的 拥有 权限 ， 图 5. 算盘 转向 模型 路 由 示例 
并 且 打 开 东 向 南 转 向 。 此 时 如 


图 5 (@O 所 示 ， 节 点 6 到 节点 5 之 间 的 所 有 最 短路 径 均 可 以 提供 给 数据 包 用 于 流量 平衡 。 
3.3 算盘 珠 安全 传递 


为 了 保证 网 络 的 无 死 锁 特性 , 在 网 络 中 移动 珠 
子 节点 同样 是 一 件 很 有 挑战 的 工作 。 如 图 6 (Wj 所 ”6)-(7)_(®) 
示 ,节点 1 是 顺 时 针 珠 子 的 拥有 者 ， 所 以 其 允许 南 ao 四 
向 西 转向 。 此 时 节点 4 可 以 利用 这 个 南 向 西 转向 向 4 
节点 0 发 送 数据 包 。 如 果 此 时 珠子 节点 被 向 上 移动 ORRO 
(如 图 6 (b) 所 示 )， 节 点 1 将 禁止 南 向 西 转向 。 如 
果 节 点 4 并 没有 及 时 发 现 这 个 改变 并 继续 向 节点 1 (a) (b) 
发 送 目的 地 为 节点 0 的 数据 包 , 那么 这 些 数据 包 将 “图 6. 珠子 移动 前 后 禁止 转向 分 布 
被 阻塞 在 节点 1。 另 外 节点 7 获得 顺 时 针 珠子 之 后 ， 
可 以 打开 东 向 南 转向 。 然 而 如 果 这 个 转向 打开 的 时 间 过 早 ， 例如 节点 1 和 节点 4 中 仍然 有 数 
据 包 在 利用 南 向 西 转向 ， 那 么 网 络 可 能 会 出 现 顺 时 针 最 右边 从 而 违反 算盘 转向 模型 的 规则 。 


为 了 解决 这 些 问题 ， 珠 子 的 移动 需要 满足 下 面 两 条 规则 : 


1. 如果 确信 没有 数据 包 正 在 使 用 或 将 要 请 求 使 用 某 一 转向 ， 则 允许 该 转向 被 禁止。 
2. 如果 确信 没有 数据 包 在 使 用 任何 可 以 与 某 一 转向 构成 最 右边 的 转向 , 则 该 转向 允许 
被 打开 。 


一 般 来 说 , 为 了 将 珠子 移动 h HEER, 分别 需要 打开 和 禁止 h 个 转向 。 因此 对 于 一 个 大 
规模 网 络 而 言 , 同时 满足 上 面 两 个 要 求 是 一 件 非常 难 的 工作 。 为 了 简化 任务 复杂 度 , 文献 [23] 
将 珠子 的 移动 切 分 成 h 个 子 步 又 , 在 每 一 步 中 珠子 节点 只 被 移动 一 跳 距 离 。 这 个 基本 的 子 步 
又 被 视 为 一 个 安全 的 原子 操作 并 被 命名 为 ”珠子 传递 " (bead-passing)。 使 用 这 个 安全 的 原子 
操作 具有 两 个 好 处 : 首先 珠子 传递 可 以 在 局 部 范围 内 通过 邻居 之 间 的 交互 完成 , 因此 具有 良 
好 的 可 扩展 性 ; 另外 珠子 传递 本 身 可 以 保证 网 络 在 重 构 过 程 中 不 会 引入 死 锁 ， 因 此 设计 人 员 
在 设计 自己 的 可 重 构 路 由 算法 时 不 需要 考虑 复杂 的 死 锁 问题 。 


在 每 一 次 原子 操作 中 , 只 有 当前 的 珠子 拥有 者 需要 禁止 一 个 转向 。 例 如 在 图 5 所 示 的 例 
子 中 ， 为 了 将 珠子 从 节点 1 上 移 至 节点 4， 节点 1 需要 禁止 南 向 西 转向 。 为 了 做 到 这 一 点 ， 
节点 1 首先 需要 通知 节点 4 禁止 向 其 发 送 目的 地 在 西南 方向 的 数据 包 , 因为 这 些 数 据 包 可 能 
需要 使 用 南 向 西 转向 。 当 节点 4 收 到 这 个 通知 时 ， 它 将 自身 的 南 输出 端口 设置 为 “不 接收 西 
南方 向 数据 包 ” 此 后 所 有 西南 方向 的 数据 包 在 节点 4 内 都 会 通过 西 输出 端口 被 路 由 到 节点 
3。 但 是 此 时 节点 4 并 不 能 向 节点 1 发 送 确 认 ， 因 为 在 这 之 前 可 能 存在 已 经 完成 路 由 阶段 的 
数据 包 。 而 这 些 数据 包 在 路 由 时 ， 并 不 知道 节点 工会 禁止 南 向 西 转向 。 因 此 在 向 节点 1 发送 
确认 之 前 ， 贡 点 4 还 需要 在 自身 内 部 排 空 可 能 发 往 节 点 1 的 西南 数据 包 。 


= 
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流量 感知 的 可 重 构 路 由 算法 


1. IF 向 上 移动 Then 1. IF 向 上 移动 Then 
通知 北边 邻居 从 本 地 、 东 和 北 输入 缓冲 队列 . ”通知 西边 邻居 从 本 地 、 西 和 南 入 缓冲 队列 清空 
清空 西南 方向 数据 包 。 东北 方向 数据 包 。 
等 待 北边 邻居 完成 。 .等待 西边 邻居 完成 。 
在 北 输入 缓冲 队列 中 清空 西南 方向 数据 包 。 . 在 西边 输入 缓冲 队列 中 清空 东北 方向 数据 包 。 
禁止 南 向 西 转向 , 将 珠子 向 上 传递 。 . ”禁止 东 向 北 转向 ， 将 珠子 向 上 传递 。 

6. ELSE IF 向 下 移动 Then . ELSE IF 向 下 移动 Then 
通知 西边 邻居 从 本 地 、 西 和 北 输入 缓冲 队列 . ”通知 南边 邻居 从 本 地 、 东 和 南 输 入 缓冲 队列 清 
清空 东南 方向 数据 包 空 西北 方向 数据 包 。 
等 待 西边 邻居 完成 。 . 等 待 南边 邻居 完成 。 
在 西 输入 缓冲 队列 中 清空 东南 方向 数据 包 。 . ”在 南 输 入 缓冲 队列 中 清空 东南 方向 数据 包 
禁止 东 向 南 转向 ， 将 珠子 向 下 传递 。 . ”禁止 北 转 西 转向 ， 将 珠子 向 下 传递 。 


11. ENDIF 11. ENDIF 


(a) 移动 顺 时针 珠 子 (b) 移动 北 时 针 珠子 
图 7. 珠子 传递 的 伪 代 码 


路 由 器 内 部 清除 某 种 类 型 的 数据 包 的 方法 在 路 由 重 构 领 域 已 经 获得 广泛 的 丰 
FPAPSIPCI ABI | 文献 [23] 借 鉴 文献 [29] 重 构 令 牌 的 思想 ， 但 是 文献 [23] 方 法 的 不 同 之 处 
在 于 并 不 是 所 有 的 数据 包 都 需要 排 空 。 在 上 述 例子 中 节点 4 只 需要 排 空 西 南方 向 的 数据 包 。 
因为 节点 4 只 有 可 能 从 本 地 、 东 和 北 输入 端口 接收 到 西南 数据 包 , 重 构 令 牌 只 需要 在 相应 的 
输入 缓冲 队列 的 末尾 插入 即 可 。 当 南 输 出 端口 收 到 所 有 来 自 这 三 个 输入 端口 的 令 牌 之 后 , 节 
点 4 便 可 以 确认 在 其 内 部 不 再 存在 可 能 被 路 由 到 节点 1 的 西南 方向 数据 包 。 因此 节点 4 此 时 
可 以 向 节点 1 发送 确认 。 


收 到 确认 之 后 ， 节 点 1 便 有 是 够 的 信心 认为 其 北 输入 端口 不 会 再 接收 到 新 的 西南 方向 
数据 包 。 但 是 此 时 在 北 输入 端口 的 缓冲 队列 中 仍 可 能 存在 西南 方向 数据 包 。 因此 在 禁止 南 向 
西 转向 之 前 ， 节 点 1 还 需要 在 其 自身 的 北 输入 端口 排 空 西南 方向 数据 包 。 在 此 之 后 ， 节 点 1 
可 以 禁止 南 向 西 转向 并 将 珠子 向 上 传递 。 接收 到 珠子 后 , 节点 4 打开 东 向 南 转向 并 通知 其 西 
边 的 邻居 可 以 向 其 发 送 东 南方 向 数据 包 。 到 此 完成 一 次 珠子 传递 。 如 网 7 所 示 , 移动 顺 时 针 
和 逆 时 针 珠 子 的 操作 被 总 结 为 伪 代 码 的 形式 。 其 中 上 述 的 讨论 对 应 图 7 (a) 中 的 第 2 到 第 5 
行 。 向 下 移动 顺 时 针 珠 子 和 移动 逆 时 针 珠 子 的 原理 与 我 们 上 面 讨论 的 向 上 移动 顺 时 针 珠 子 类 
似 ， 不 同 的 只 是 所 涉及 的 转向 。 
3.4 基于 算盘 转向 模型 的 可 重 构 路 由 算法 
基于 算盘 转向 模型 和 珠子 传递 原子 操作 使 可 重 构 路 由 的 设计 被 简化 为 确定 珠子 移动 方 
向 的 规则 。 
3.4.1 SF BET Be A 

根据 算盘 转向 模型 ， 四 个 非 关 键 转 向 : 西向 北 、 北 向 东 、 西 向 南 以 及 南 向 东 是 时 刻 被 允 
许 的 。 而 另外 四 个 转向 : 东 向 南 、 南 向 西 、 东 向 北 以 及 北向 西 则 需要 通过 珠子 传递 算法 进行 
重 构 。 这 四 个 转向 可 以 分 为 两 组 : 顺 时 针 组 〈 东 向 南 和 南 向 西 ) 以 及 逆 时 针 组 〈 东 向 北 和 北 
向 西 )。 一 般 来 说 移动 珠子 意味 着 在 旧 的 珠子 拥有 者 处 禁止 一 个 转向 ， 同 时 在 新 的 珠子 拥有 
者 处 打开 另外 一 个 属于 同一 组 的 转向 。 因 此 对 不 同 转向 的 需求 程度 自然 成 为 决定 珠子 移动 方 
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向 的 依据 。 为 了 记录 对 不 同 转向 的 需求 , AE ig BES DO =P BF FF AB: CT yy. CT yn FCT yy s 


用 于 分 别 表示 当前 节点 、 北 邻居 和 南 邻 居 对 转向 xy 的 需求 ， 其 中 


xy € {es,sw,en,nw} 


Ce: 东 ; s fa; n: dks W: 西 ; es: AR nl A SW: 南 向 西 ain 》 依 此 类 推 ) 


一 个 质量 为 0 的 方块 。 如 图 8 所 示 ， 珠 子 被 类 比 成 质量 
块 为 顺 时 针 珠 子 。 


Fy 


0, 


direction = 


有 了 节点 对 不 同 转向 的 需求 之 后 , 上 下 移动 珠子 可 以 类 比 为 在 一 面 垂直 的 墙 上 上 下 推动 


为 0 的 方块 。 不 失 一 般 性 ， 假 设 此 方 


Fosi fo EF p > Fawn 


P= 
f=uxP B F. = Fimi Eor fs Æ F p < Fass 


其 他 


up ’ = F summation > T, HF up > F down 
down, 若 下 summation > T, HF up < F d 


own 


图 8. ”上 下 移动 质量 为 0 的 方块 示例 


上 的 力 越 大 。 同时 珠子 持 有 者 的 南 邻 居 为 了 打开 南 向 本 
反映 了 南 邻 居 对 南 向 西 转向 的 需求 程度 。 对 于 当前 的 珠 


TERE LSA Carm-wrestling) 中， 为 了 将 方块 向 上 移动 ， 当 前 珠子 持 有 者 的 北 邻 居 向 
方块 施加 一 个 向 上 的 力 Fu,p。 这 个 力 实际 上 反映 的 是 北 邻居 对 东 向 南 转 向 的 需求 程度 ， 因 为 
只 有 把 珠子 拉 上 来 ， 该 节点 才能 打开 东 向 南 转向 。 因 此 北 邻 居 对 东 向 南 转向 的 需求 越 大 ， 向 


转向 也 会 向 方块 施加 一 个 力 。 这 个 力 
THAR, 一旦 它 失去 珠子 便 需 要 禁 


止 相应 的 转向 。 例 如 珠子 向 上 移动 ， 则 当前 的 珠子 持 有 


者 便 会 位 于 新 的 珠子 持 有 者 的 下 方 ， 


需要 禁止 南 向 西 转向 。 如 果 珠 子 向 下 移动 ， 则 当前 珠子 持 有 者 需要 禁止 东 向 南 转向 。 为 了 阻 


止 珠子 被 其 他 节点 抢 走 ， 当 前 的 持 有 者 会 对 珠子 的 移动 


施加 一 个 阻力 。 为 了 阻止 珠子 向 上 移 


动 , 这 个 阻力 的 方向 向 下 并 且 反映 当前 持 有 者 对 南 向 西 转向 的 需求 为 了 阻止 珠子 向 下 移动 ， 


阻力 的 方向 向 上 并 且 反 映 当前 持 有 者 对 东 向 南 转向 的 需求 。 向 上 的 力 、 向 下 的 力 以 及 当前 节 


点 的 阻力 一 起 形成 一 个 合力 ， 这 个 合力 将 决定 珠子 的 移动 方向 。 另 外 为 了 防止 珠子 的 抖动 ， 
我 们 设置 一 个 闪 值 〈 国 )， 只 有 当 最 终 的 合力 大 于 这 个 阅 值 时 珠子 才 会 被 移动 。 对 于 移动 逆 


时 针 珠子 , 向 上 的 力 反 映 了 北 邻 居 对 北向 西 转向 的 需求 
向 的 需求 。 


3.4.2 拔河 路 由 算法 


， 向 下 的 力 反映 了 南 邻 居 对 东 向 北 转 


在 上 述 的 竹 腕 子 算法 中 ， 只 有 三 个 节点 参与 决定 珠子 移动 的 方向 : 珠子 的 当前 持 有 者 、 


北 邻 居 和 南 邻 居 , 与 珠子 持 有 者 距离 更 远 的 节点 对 转向 


的 需求 则 没有 被 考虑 。 为 了 解决 这 个 


问题 ， 拔 河 算法 Ctug-war) 将 位 于 珠子 当前 持 有 者 上 方 和 下 方 的 节点 分 成 两 个 小 组 。 为 了 
向 上 移动 顺 时 针 珠子 ， 持 有 者 上 方 的 所 有 节点 对 东 向 南 转向 的 总 需求 被 视 为 向 上 的 力 Fupo 


为 了 将 顺 时 针 珠 子 向 下 拉动 , 持 有 者 下 方 的 所 有 节点 对 南 向 西 转向 的 总 需求 则 被 视 为 向 下 的 
J) Fuowm。 与 狂 腕 子 算法 相同 ， 珠 子 的 当前 持 有 者 同样 需要 施加 阻力 避免 珠子 的 移动 。 另 外 
为 了 强调 与 珠子 更 近 的 节点 的 重要 性 ， 在 传递 转向 需求 过 程 中 ,“ 需 求 ” 每 经 过 一 个 节点 即 


被 除 以 2. 
3.5 实验 评估 
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盘 转向 模型 提供 一 个 “安全 ”的 方式 完成 无 死 锁 路 由 的 动态 
表示 在 算法 生成 和 重 构 的 过 程 中 不 会 产生 死 锁 。 因 


本 广 通 过 与 当前 常见 的 路 1 


流量 感知 的 可 重 构 路 


算法 


算法 相 比 


较 来 评估 基于 算盘 


转向 模型 的 可 重 构 路 由 算法 。 算 
生成 和 动态 重 构 。 其 中 ,“ 安 全 ” 
此 我 们 在 挑选 参考 路 由 算法 时 同样 选择 那 


些 为 了 解决 “安全 ”问题 的 算法 。 比 较 的 路 由 算法 包括 一 个 确定 型 路 由 算法 : xy 路 由 ; 两 
个 部 分 自 适 应 路 由 算法 ， 西 最 先 Cwest-first) [和 奇偶 (odd-even) 20 ;一 个 最 短路 径 完 
全 自 适应 路 由 算法 5。 最 近 提出 的 路 由 算法 ， 例 如 CQRE", O1Tum?!, A RCAM" 均 是 为 
了 解决 流量 平衡 问题 ， 因 此 并 没有 参与 比较 。 


间 《〈credit) 的 输出 端口 。 每 个 


路 


队列 。 


ys 
每 个 


配 ， 除 非 上 一 个 数据 包 的 


个 虚 
分 配 


( 均 
随后 
的 路 


Th: 灵活 的 和 细节 的 。 在 本 节 上 


了 修 


自 适 应 路 由 算法 可 能 产生 


两 个 备 选 输出 端口 。 在 这 种 情况 下 ,选择 # 


有 更 多 可 用 缓冲 空 


由 器 包含 5 个 输入 和 输出 端 


器 均 假 设 每 个 虚拟 网 络 包含 一 
而 在 引文 [15]， 每 个 虚拟 网 络 内 包含 2 条 虚 通 道 , 所 以 为 了 与 其 它 文献 结果 公平 
文 [15] 不 允许 一 个 虚 通道 


rade 


JEAN 


虚 通道 只 分 配 一 个 深度 为 2 


的 输入 缓冲 队列 。 另 外 引 


尾 流 控 单 元 已 经 离开 这 个 虚 通 道 


。 除 了 引文 [15]， 其 他 文献 中 


条 虚 通 道 , 以 及 每 条 虚 通 道 包含 一 个 深度 为 4 的 输入 缓冲 


比较 ， 
被 重新 分 


。 而 对 


他 路 由 算法 来 说 ， 只 要 一 


9 SINE 


通道 收 至 
本 小 节 首 先 针 对 可 综合 的 流 
5), 


transpose 《对调 )， 和 hotspot 〈 热 点 )。 仿 真 首 多 


I 上 一 个 数据 包 的 尾 流 控 单元 , 无 论 该 流 控 单 元 是 否 离 


这 个 虚 通 道 都 可 以 重新 


为 了 展现 路 由 算法 的 可 扩展 
由 算法 均 在 一 个 时 钟 周期 精 


确 的 


改 路 由 结构 的 可 能 。 在 这 个 


的 仿真 中 有 


实验 中 ， 每 个 路 由 


开源 的 全 系统 模拟 器 GEMS 


只 加 载 了 Ruby 模块 ， 并 且 在 Ruby 模块 


量 对 路 由 算法 的 性 能 进行 评估 。 可 综合 的 流量 包括 : uniform 
假设 一 个 4X4 的 
司 样 的 仿真 又 在 一 个 8X8 的 
开源 模拟 器 Garnet? py SCHL. 
的 是 细节 的 仿真 方式 ， 

器 实现 一 个 虚拟 网 络 。 


随后 ， 本 小 节 又 通过 踪迹 驱动 (trace driven) 的 仿真 方法 针对 应 用 程序 的 流量 对 路 由 
法 进行 评估 。 应 用 程序 的 踪迹 是 通过 3 
商业 的 全 系统 模拟 器 Simics5 的 基础 上 增加 了 对 存储 模块 和 处 理 器 模块 时 序 的 模拟 ， 
加 了 Ruby 和 Opal 模块 。 在 我 们 的 实验 中 


网 状 网 网 络 ， 
网 状 网 网 络 中 实施 。 所 有 

Garnet 提供 两 种 仿真 模 
因为 细节 的 仿真 模型 提供 


算 

340 获 得 的 。GEMS 在 一 个 
即 增 

选择 使 


用 Garnet 网 络 。 实 验 所 采用 的 缓存 (cache) 一 致 性 协议 为 MSI_MOSI_CMP_directory。 这 
决 协议 死 锁 。 在 这 5 个 虚拟 网 络 中 2 个 网 络 要 求 数据 包 按 序 


个 协 
到 达 


议 需 要 5 个 虚拟 网 络 用 于 解 
。 在 这 个 实验 中 ， 为 了 减少 


为 splash-2B5 和 PARSEC®”!, 


3.5.1 


网 状 


据 包 的 平均 延迟 《单位 为 路 由 髓 时 钟 周 


由 算 


可 综合 流量 下 的 网 络 性 能 
在 uniform 流量 


网 网 络 的 仿真 结 


Saal 


果 如 


法 一 般 会 比 自 适应 路 由 算法 


仿真 时 间 ， 我 们 采 


期 数 )。 


] 的 是 4X4 的 网 状 网 网 络 。 基 准 测试 集 


下 ， 每 个 节点 以 相同 的 概率 向 其 他 节点 发 送 数据 包 。 针 对 4X4 和 8X8 
图 9 所 示 。 水平 坐标 轴 表 示 流 控 单 元 的 注入 率 ,， 垂直 坐标 四 
因为 uniform WERA AFE, H 
获得 更 好 的 性 能 。 造 成 这 个 现象 的 主 


上 代表 数 
定性 路 
因 是 自 适 应 路 由 算 


HE 


x 


原 


法 经 常 基于 局 部 信息 来 做 路 由 选择 。 这 种 短视 的 策略 通常 会 造成 网 络 性 能 的 下 降 。 


如 图 9 (a) 所 示 ，xy 路 由 算法 获得 的 性 能 最 好 ， 两 个 部 分 自 适应 路 由 算法 的 网 络 性 能 类 
似 。 基 于 算盘 转向 模型 的 可 重 构 路 由 算法 的 性 能 此 时 不 如 部 分 自 适 应 路 由 算法 。 这 主要 是 因 
为 可 重 构 路 由 算法 总 是 基于 历史 信息 对 路 由 进行 重 构 。 但 是 这 种 重 构 策略 在 uniform 流量 情 
况 下 常常 是 错误 的 。 例 如 假设 东北 方向 的 数据 包 在 当前 时 间 段 内 共有 最 高 的 负载 , 所 以 可 重 
构 路 由 算法 会 在 下 一 个 时 间 段 内 为 东北 方向 的 数据 包 分 配 更 多 的 路 由 自 适 应 度 。 然 而 根据 
uniform 流量 的 定义 ， 在 下 一 个 时 间 段 内 东北 方向 的 数据 包 的 数量 很 大 程度 上 会 非常 少 。 最 


37 


p 9 卷 第 6 HH 


信 ， 


短路 径 完全 自 适 应 路 由 算法 在 


本 实验 


剖 空 间 最 少 ，2) 其 流 控 机 制 保守 。 


平均 包 延 时 〈 周 期 数 ) 


10 
0% 15% 30% 
流 控 单 元 注入 率 


(a) 4x4 网 状 网 网 络 


图 9. 


- 自 适应 
奇偶 


Uniform Wis 


| x BIE | 


- 西 最 先 


一 9 一 xy 


平均 包 延 时 〈 周 期 数 ) 


1 
0% 15% 30% 


流 控 单 元 注入 率 


(a) 4x4 网 状 网 网 络 


图 10. 


Transpose 流量 


平均 包 延 时 〈 周 期 数 ) 


流 控 单元 注入 率 


45% 


45% 


E- 


ue! 


9% 12% 


(a) 4x4 网 状 网 网 络 


图 11. 


为 了 证 明 算 法 的 可 扩展 怕 
果 与 在 4X4 网 状 网 网 络 中 的 结果 类 似 。 但 是 在 这 个 实验 ! 


Hotspot 流 


H 


里 


ATR 


Information Technology Letter 


获得 的 性 能 最 差 。 这 主要 有 


Vol.9 No.6 
Nov. 2011 


两 个 原 


20 
0% 5% 
流 控 单元 注入 率 


(b) 8x8 网 状 网 网 络 


F 的 数据 包 平 均 延 迟 


拔河 算法 | | 
mE || 


自 适应 
奇偶 
- 西 最 先 


10% 


15% 20% 


20 
0% 5% 
流 控 单 元 注入 率 
(b) 8x8 网 状 网 网 络 
下 的 数据 包 平 均 延迟 


平均 包 延 时 〈 周 期 数 ) 


下 的 数据 包 平 均 延迟 
E» REIXA 8X8 网 状 网 网 络 中 进 


10% 


15% 20% 


Al: 1) 其 输入 组 


拔河 算 
WRA 
自 适 应 
奇偶 


法 


法 


0.5 


1.0 


15 2.0 


流 控 单元 注入 率 (%) 
(b) 8x8 网 状 网 网 络 


完全 自 


oe, 


38 


算法 的 相对 * 


He Sl 
TH 


获得 了 提升 。 这 主要 是 因 
时 文献 [15] 要 求 数据 包 在 
全 自 适应 路 | 


在 真实 的 1 


， 源 节点 s AIA 


5 
` 


r= 
L 


L: 


yey 


vib 


为 网 络 ! 


qe 


i=) 
量 / 


BAT 


或 知 的 可 重 构 路 


算法 


+ 突 的 概率 随 着 网 络 规模 的 增 大 而 增加 。 当 发 生 冲突 


逃避 通 


道 


内 等 待 。 


算法 也 可 以 像 xy PE HARA 


世界 中 , 大 多 数 应 用 程序 产 4 


因为 逃避 通道 采用 xy 路 由 算法 ， 所 以 此 时 的 完 
fF 获得 uniform 流量 均衡 的 好 处 。 


= 
Eg 


i=) 


例如 transpose 流量 


| 
所 需要 的 编号 长 度 。 由 图 
构 路 由 算法 获得 最 好 的 


Transpose 流星 


算法 可 以 获得 比 xy 路 


很 容易 造成 严重 


10 (a) 可 以 看 


目的 节点 d 发 送 数 据 包 ， 


因 


E 非 均匀 的 流 tut. 在 transpose 
中 di = Sarama DEAT RSA 
出 在 transpose 流量 情况 下 ， 基 于 算盘 转向 模型 的 可 重 


= 


4 


网 络 性 能 ， 


为 它们 可 以 为 所 有 的 数据 包 提 供 完 全 自 适应 度 。 


算法 更 好 的 


适应 度 。 但 是 其 性 


zB. 
AJ 


更 好 的 网 络 性 能 。 但 是 


是 


算法。 如 
算法 之 间 的 相对 | 
大 了 。 这 3 


TH EI 
要 是 


名 


+ 


能 的 提 
个 路 由 可 以 为 各 个 方向 


型 的 可 重 构 路 由 算法 同样 高 的 性 


高 是 有 限 的 ， 


Try 


的 网 络 拥 


， 因 此 xy 路 由 算法 此 时 获得 性 能 最 差 。 西 最 先 EE 
性 能 ， 因 为 它 可 以 为 向 东 传 输 的 数据 包 提供 完全 的 
因 


为 向 西 传输 的 数据 包 仍 然 遭受 着 严重 的 网 络 拥塞 。 


的 数 ] 


据 包 提供 


~ 


》 


相对 均衡 的 自 适 应 度 ， 所 以 它 可 以 获得 比 “ 西 最 先 


因为 其 提供 的 自 适应 度 是 不 完全 的 , 所 以 无 法 获得 与 基 了 


HSS fi 


应 用 程序 
仿真 假设 存在 4 个 热点 : 
额外 20% 的 届 


TA 


节 


bb es 


此。 元 
其 缓冲 区 较 少 以 及 流 控 机 制 保 守 , 因 
10 (b) 展 示 了 在 8X8 网 状 网 网 络 
FE 能 没有 改变 , 但 是 我 们 提 
AARI EH 
的 突 发 流量 容易 造成 网 络 热点 ， 从 而 加 剧 网 络 的 拥 


1 会 获得 数据 包 。 我 们 选择 这 4 个 节点 用 了 


C 


Bea 


全 自 适 应 路 由 算法 同样 可 以 提供 完全 的 自 适 应 度 , 但 
此 获得 的 性 能 同样 低 于 基于 算盘 转向 模型 的 可 重 构 路 
进行 同样 实验 的 仿真 结果 。 虽 然 各 个 路 
的 路 由 算法 与 当前 路 由 算法 之 间 的 性 能 差距 拉 
在 大 规模 网 络 中 的 拥塞 问题 。 


塞 问题 ,在 接 下 来 的 两 个 


EEA Hy eh 


站 器 被 频繁 访问 的 


情况 。 在 这 种 情况 | 
算盘 转向 模型 的 路 


以 其 性 能 不 妇 


站， 西向 数据 包 非 
FRET LAW 
适应 度 。 同 样 完全 自 适应 路 由 
1 基于 算盘 转向 模型 的 可 重 构 路 


4 


i? D9 


FIRM 4 个 存储 探 人 
真 结果 表明 基于 


H 


得 最 好 的 性 能 。 这 
算法 因 


易 产 生 拥 塞 。 如 图 11 (a) 所 示 的 仿真 结 
是 因为 它 可 以 为 所 有 的 数据 包 提供 完全 的 
的 缓存 空间 以 及 使 用 保守 的 流 控 机 制 ,所 


路 由 因为 不 能 提供 


适应 度 , 所 以 性 能 最 差 。 当 


如 图 11 @) 所 示 ， 此 时 基 


于 算盘 


3.5.2 针对 应 用 程序 流量 的 网 络 性 能 


在 图 


12 aF, 所 有 路 


图 


络 延 迟 为 基准 归 


化 。 基 于 


算 


L 


配 更 多 的 
应 用 程序 ， 我 们 提 1 
性 外 


能 提升 的 程度 不 同 。 


适应 度 的 方式 大 


例 


转向 模型 的 可 习 


为 具有 较 少 

算法， 甚至 不 如 奇偶 路 由 算法 。 西 最 先 和 xy 
网 络 规模 扩大 后 , 网 络 的 拥塞 问题 会 更 严重 。 
E 构 路 由 算法 的 性 能 优势 更 加 明显 


ME o 


算法 在 splash-2 基准 测试 集 的 网 络 平均 延迟 全 部 以 xy 路 由 的 网 
转向 模型 的 狼 腕 子 算法 和 拔河 算法 通过 动态 地 为 突 发 流量 分 
而 降低 了 网 络 的 平均 延迟 。 总 的 来 说 ,对 所 有 
的 2 个 算法 都 有 不 同 程度 的 性 能 提升 。 但 是 对 于 不 同类 型 的 应 用 程序 ， 
如 ， 对 于 那些 像 快速 傅 里 时 变换 和 水 分 子 力 和 势能 分 布 


的 测试 基准 集 内 的 


(water-spatial) 等 容易 


小 。 


REY 


ERY 60% 以 


E 冲 突 的 应 用 得 
似 光 线 追 踪 Craytrace) 和 洋流 模拟 Cocean) 这 些 低 冲突 
列 如 ， 洋 流 模拟 所 产 9 


mi 


序 ， 网 络 性 能 


的 提升 是 比较 显著 的 。 然 而 对 于 类 
的 应 用 程序 ， 性 能 的 提升 则 相对 较 


上 的 流量 是 本 地 流量 ， 此 时 禾 腕 子 算法 和 拔河 算法 带 


1 


= 


来 的 性 能 提升 分 别 为 6% 和 7%。 总 的 来 说 , 对 于 splash-2 基准 测试 集 我 们 提出 的 算法 平均 可 


以 于 


为 了 增加 上 述 实验 


名 


果 如 


图 12 (b) 所 示 ， 


与 上 述 的 实验 结果 相同 ， 基 于 算盘 转向 模型 的 可 习 
E 能 。 特 别 对 了 


样 可 以 大 幅 地 提高 网 络 怕 


得 10% 的 网 络 性 能 提升 ， 最 大 可 以 获得 19% 的 性 能 提升 。 


的 可 信 度 ， 我 们 在 PARSEC 基准 测试 集 下 重 做 了 上 述 实验 。 仿 真 结 
网 络 的 平均 数据 包 延 迟 同 样 以 xy 路 由 的 网 络 延 迟 为 基准 


E 归 一 化 。 


EE 构 路 由 算法 在 PARSEC 基准 测试 集 下 同 


FF 类似 canneal (月 


日 于 优化 蔚 片 内 布局 布线 的 缓存 感知 


39 


第 9 卷 第 6 期 信息 技术 快报 Vol.9 No.6 

Information Technology Letter Nov. 2011 
退火 算法 ) 和 fredmine〈 频 繁 项 集 挖掘 ) 等 高 度 拥 塞 的 应 用 程序 ， 网 络 性 能 的 提升 尤其 可 观 。 
例如 对 于 freqmine 应 用 程序 ， 拔 河 算法 可 以 减少 15% 的 平均 延 运 ， 而 艇 腕 子 算法 可 以 减少 
12%。 但 是 对 于 类 似 streamcluster〈 输 入 流 的 在 线 集聚 算法 ) 等 低 冲 突 的 应 用 程序 ， 网 络 性 
能 的 提升 则 相对 较 少 。 例 如 对 于 streamcluster， 壬 腕 子 和 拔河 算法 分 别 减少 2% 和 3% 的 数据 
包 平 均 延 迟 。 总 的 来 说 ， 针 对 PARSEC 基准 测试 集 ， 我 们 提出 的 可 重 构 路 由 算法 最 多 可 以 
减少 15% 平 均 可 以 减少 10% 的 数据 包 访问 延迟 。 
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4 总结 


本 文 介绍 了 三 种 利用 应 用 程序 流量 信息 的 可 重 构 路 由 算法 。 其 中 两 种 为 离线 可 重 构 算 
法 ,一 种 为 在 线 可 重 构 算法 。 离 线 算法 利用 事先 采集 的 应 用 程序 的 通信 特征 来 确定 路 由 规则 ， 
从 而 达到 平衡 网 络 流量 、 提 升 网 络 性 能 的 目标 。 这 种 方式 的 好 处 是 可 以 利用 全 局 的 流量 信息 
来 对 系统 进行 优化 , 但 是 却 只 能 在 应 用 程序 定制 的 系统 中 使 用 。 在 通用 处 理 器 系统 中 ， 由 于 
不 能 提前 采集 程序 的 流量 特性 , 所 以 只 能 使 用 在 线 的 可 重 构 路 由 算法 。 基于 算盘 转向 模型 的 
可 重 构 路 由 算法 可 以 通过 动态 地 改变 每 个 节点 禁止 的 转向 来 实现 路 由 自 适应 度 的 按 需 分 配 。 
由 于 高 负载 方向 的 数据 包 可 以 动态 地 获得 更 多 的 路 由 自 适应 度 用 于 平衡 网 络 流量 , 所 以 网 络 
性 能 可 以 获得 较 大 提升 。 针 对 非 均匀 可 综合 流量 ，Splash-2 和 PARSEC 基准 测试 程序 集 的 仿 
真实 验 表明 , 相对 已 有 路 由 算法 ,基于 算盘 转向 模型 的 可 重 构 路 由 算法 在 流量 模型 下 可 获得 
较 明显 的 性 能 提升 。 


参考 文献 : 


[1] D. Geer, “Chip makers turn to multicore processors”, Computer, vol. 38, no. 5, pp: 11-13, May, 2003. 


[2] WJ. Dally and B. Towles, “Route packets, not wires: on-chip interconnection networks”, in 
Proceedings of Design Automation Conference, pp: 684-689, 2001. 


40 


[3] 


[4] 


[5] 


[6] 


[7] 


[8] 


[9] 


[10] 


[11] 


[12] 


[13] 


[14] 


[15] 


[16] 


[17] 


[18] 


[19] 


流量 感知 的 可 重 构 路 由 算法 


W.J. Dally and B. Towles, “Principles and practices of interconnection networks”, Morgan Kaufmann, 
2004. 


M.B. Taylor, J. Kim, J. Miller, D. Wentzlaff, F. Ghodrat, B. Greenwald, H. Hoffman, P. Johnson, Lee 
Jae-Wook, W. Lee, A. Ma, A. Saraf, M. Seneski, N. Shnidman, V. Strumpen, M. Frank, S. 
Amarasinghe, and A. Agarwal, “The Raw microprocessor: a computational fabric for software 
circuits and general-purpose programs”, IEEE Micro, vol. 22, no. 2, pp: 25-35, 2002. 


S.R. Vangal, J. Howard, G. Ruhl, S. Dighe, H. Wilson, J. Tschanz, D. Finan, A. Singh, T. Jacob, S. 
Jain, V. Erraguntla, C. Roberts, Y. Hoskote, N. Borkar, S. Borkar, “An 80-Tile Sub-100-W 
TeraFLOPS Processor in 65-nm CMOS”, IEEE Journal of Solid-State Circuits, vol. 43, no. 1, pp: 
29-41, Jan. 2008. 


D.R. Fan, N. Yuan, J. C. Zhang, Y. B. Zhou, W. Lin, F.L. Song, X. C. Ye, H. Huang, L. Yu, G. P. Long, 
H. Zhang, and L. Liu, “Godson-T: An Efficient Many-Core Architecture for Parallel Program 
Executions”, Journal of Computer Science and Technology, vol. 24, no. 6, 2009. 


Jongman Kim, Dongkook Park, T. Theocharides, N. Vijaykrishnan, C.R. Das, "A low latency router 
supporting adaptivity for on-chip interconnects," in Proceedings of Design Automation Conference, 
pp. 559- 564, 2005. 


A. Singh, W.J. Dally, A.K. Gupta, B. Towles, "GOAL: a load-balanced adaptive routing algorithm for 
torus networks," in Proceedings of International Symposium on Computer Architecture, pp. 194- 205, 
2003. 


J. Brand, C. Ciordas, K. Goossens, T. Basten, "Congestion-Controlled Best-Effort Communication for 
Networks-on-Chip," Design, Automation & Test in Europe Conference & Exhibition, pp.1-6, 2007. 


J. Duato, I. Johnson, J. Flich, F. Naven, P. Garcia, T. Nachiondo, "A new scalable and cost-effective 
congestion management strategy for lossless multistage interconnection networks," International 
Symposium on High-Performance Computer Architecture, pp. 108- 119, 2005. 


P. Gratz, B. Grot, S.W. Keckler, "Regional congestion awareness for load balance in 
networks-on-chip," in Proceedings of High Performance Computer Architecture, pp.203-214, 2008. 


D. Park, R. Das, C. Nicopoulos, J. Kim, N. Vijaykrishnan, R. Iyer, C.R. Das, "Design of a Dynamic 
Priority-Based Fast Path Architecture for On-Chip Interconnects," in Proceedings of IEEE 
Symposium on High-Performance Interconnects, pp.15-20, 2007. 


S.A. Felperin, L. Gravano, GD. Pifarre, J. Sanz, "Fully-adaptive routing: packet switching 
performance and wormhole algorithms," in Proceedings of the ACM/IEEE Conference on 
Supercomputing, pp.654-663, 1991. 


W.J. Dally, H. Aoki, “Deadlock-free adaptive routing in multicomputer networks using virtual 
channels”, IEEE Transactions on Parallel and Distributed Systems, vol. 4, no. 4, pp: 466-475, Apr. 
1993. 


J. Duato, “A new theory of deadlock-free adaptive routing in wormhole networks”, [EEE 
Transactions on Parallel and Distributed Systems, vol. 4, no. 12, Dec. 1993. 


Y. M. Boura, C.R. Das, “Efficient fully adaptive wormhole routing in n-dimensional meshes”, in 
Proceedings of International Conference on Distributed Computing Systems, pp: 589-596, 1994. 


J.H. Upadhyay, V. Varavithya, P. Mohapatra, “Efficient and balanced adaptive routing in 
two-dimensional meshes”, in Proceedings of IEEE Symposium on High-Performance Computer 
Architecture, pp: 112 -121, 1995. 


L.S. Peh and W.J. Dally, “A delay model and speculative architecture for pipelined routers”, in 
Proceedings of International Symposium on High-Performance Computer Architecture, pp: 255 -266, 
2001. 


C.J. Glass and L.M. Ni, “The Turn Model for Adaptive Routing”, in Proceedings of International 
Symposium on Computer Architecture, pp: 278-287, 1992. 


41 


a 


[20] 


[21] 


[22] 


[23] 


[24] 


[25] 


[26] 


[27] 


[28] 


[29] 


[30] 


[31] 


[32] 


[33] 


[34] 


[35] 


[36] 


期 信息 技术 快报 Vol.9 No.6 


Information Technology Letter Nov. 2011 


GM. Chiu, “The odd-even turn model for adaptive routing”, IEEE Transactions on Parallel and 
Distributed Systems, vol. 11, no. 7, pp: 729-738, Jul. 2000. 


M. Palesi, R. Holsmark, S. Kumar, and V. Catania, “Application Specific Routing Algorithms for 
Networks on Chip”, IEEE Transactions on Parallel and Distributed Systems, vol. 20, no. 3, Mar. 
2009. 


M.A. Kinsy, M.H. Cho, T. Wen, E. Suh, M. van Dijk, and S. Devadas, “Application-aware 
deadlock-free oblivious routing”, in Proceedings of international symposium on Computer 
architecture (ISCA’09), pp: 208—219, 2009. 


B. Fu, Y. Han, J. Ma, H. Li, and X. Li, “An abacus turn model for time/space-efficient reconfigurable 
routing”, in Proceedings of international symposium on Computer architecture (ISCA’11), pp: 
259-270, 2011. 


T.L. Rodeheffer and M.D. Schroeder, “Automatic reconfiguration in Autonet”, in Proceedings of 
ACM symposium on Operating systems principles, pp: 183-197, 1991. 


O. Lysne and J. Duato, “Fast dynamic reconfiguration in irregular networks”, in Proceedings of 
International Conference on Parallel Processing, pp: 449-458, 2000. 


R. Casado, A. Bermudez, F.J. Quiles, J.L. Sanchez, J. Duato, “Performance evaluation of dynamic 
reconfiguration in high-speed local area networks”, in Proceedings of International Symposium on 
High-Performance Computer Architecture, pp: 85-96, 2000. 


R. Casado, A. Bermudez, J. Duato, F.J. Quiles, J.L. Sanchez, “A protocol for deadlock-free dynamic 
reconfiguration in high-speed local area networks”, IEEE Transactions on Parallel and Distributed 
Systems, vol. 12, no.2, pp: 115-132, Feb. 2001. 


D. Avresky and N. Natchev, “Dynamic reconfiguration in computer clusters with irregular topologies 
in the presence of multiple node and link failures”, IEEE Transactions on Computers, vol. 54, no. 5, 
pp: 603-615, May 2005. 


O. Lysne, J.M. Montanana, J. Flich, J. Duato, T. M. Pinkston, T. Skeie, “An efficient and 
deadlock-free network reconfiguration protocol”, IEEE Transactions on Computers, vol. 57, no. 6, 
pp:762-779, June 2008. 


A. Singh, W.J. Dally, A.K. Gupta, and B. Towles, “Adaptive channel queue routing on k-ary n-cubes”, 
in Proceedings of ACM symposium on Parallelism in Algorithms and Architectures, pp: 11-19, 2004. 


D. Seo, A. Ali, W.T. Lim, N. Rafique, and M. Thottethodi, “Near-Optimal Worst-Case Throughput 
Routing for Two-Dimensional Mesh Networks”, in Proceedings of international symposium on 
Computer Architecture, pp: 432-443, 2005. 


P. Gratz, B. Grot, S.W. Keckler, “Regional congestion awareness for load balance in 
networks-on-chip”, in Proceedings of JEEE International Symposium on High Performance 
Computer Architecture, pp:203-214, 2008. 


N. Agarwal, L.S. Peh, N. Jha, “Garnet: A detailed interconnection network model inside a full-system 
simulation framework”, TR CE-P08-001, Princeton University, 2007. 


M.M.K. Martin, D.J. Sorin, B.M. Beckmann, M.R. Marty, M. Xu, A.R. Alameldeen, K.E. Moore, 
M.D. Hill, D.A. Wood, “Multifacet's general execution-driven multiprocessor simulator (GEMS) 
toolset”, ACM SIGARCH Computer Architecture News, vol. 33, no. 4, pp: 92-99, 2005. 


P.S. Magnusson, M. Christensson, J. Eskilson, D. Forsgren, G. Hallberg, J. Hogberg, F. Larsson, A. 
Moestedt, and B. Werner, “Simics: A full system simulation platform”, Computer, vol. 35, no.2, pp: 
50-58, 2002. 


S.C. Woo, M. Ohara, E. Torrie, J.P. Singh, and A. Gupta, “The SPLASH-2 programs: characterization 
and methodological considerations”, in Proceedings of International Symposium on Computer 
Architecture, pp:24-36, 1995. 


(下 转 第 27 页 ) 


42 


